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摘要 : [ 目的/ 意义] 针对 中 文 语言 表达 特点 ,提出 一 种 含 分 词 标签 的 字 粒 度 词 语 特征 提取 方法 ,有 效 提升 
了 中 文 临床 病历 命名 实体 识别 任务 的 Fi 值 ,同时 该 方法 可 以 为 其 他 中 文 序列 标注 模型 所 借鉴 。[ 方 法 /过 程 ] 
选取 汉语 词语 的 词性 标注 .关键 词 权 值 、 依 存 和 句法 分 析 三 个 特征 ,构筑 字 料 度 序列 标注 模型 的 临床 病历 训练 文 
本 , 语 料 来 源 CCKS2017 ;Task2。 在 不 同 特征 组 合 方式 下 ,采用 条 件 随机 场 算 法 验证 两 种 字 粒 度 词语 特征 提取 
立案 Methodl 与 Method2。[ 结果 /结论 ] 在 四 种 不 同 词语 特征 组 合 下 ,Method2 相对 于 Method! 在 临床 病历 命名 
灾 体 识别 任务 中 性 能 均 有 所 提升 ,四 折 交 又 测试 中 下 | 值 平均 提升 了 0.23% 。 实 验 表明 在 中 文 分 词 技术 日趋 成 
加 环境 下 ,Method2 相对 Method 能 够 获得 更 好 的 词语 特征 表示 ,对 中 文字 粒度 序列 标注 模型 的 处 理性 能 具 
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条 件 随机 场 ” 临 床 病历 


临床 病历 命名 实体 识别 (CNER :Clinical Named 
Entity Recognition) 又 称 电 子 病历 命名 实体 识别 , 它 是 


2016 ; Task12 ^ ,并 在 这 些 英文 临床 病历 语 料 上 开展 了 
多 项 竞赛 评测 活动 。 然 而 由 于 英文 与 中 文 在 语言 表达 
方式 上 具有 巨大 差异 ,英文 语 料 处 理 方 法 不 能 完全 适 
用 于 中 文 语 料 。 基 于 此 ,2017 年 中 国 知 识 图 谱 与 语义 


命 客 实体 识别 (NER :Named Entity Recognition ) 在 临床 
病 项 文本 分 析 研 究 中 的 应 用 延伸 ,其 任务 是 利用 计算 
机 后 动 从 临床 病历 文本 中 识别 并 抽取 出 与 医学 临床 相 
关 的 命名 实体 对 象 ,如 疾病 症状、 检查 .治疗 等 。 这 些 
实体 对 象 可 供 医 学 临床 决策 支持 等 后 续 医 学 信息 分 析 
研究 使 用 ,所 以 近年 来 CNER 的 研究 发 展 受 到 了 国内 
外 计算 机 界 ,情报 界 、 生 物 医 药 界 的 广泛 关注 " 。 

真实 临床 病历 语 料 是 CNER 研究 的 关键 ,而 临床 
病历 具有 私密 性 ,最 终 由 医院 归档 保存 ,公开 的 临床 病 
历 语 料 库 非 常 少 。 国 外 研究 组 织 提供 的 真实 临床 病历 
语 料 可 见 12B2( Informatics for Integrating Biology & the 
Bedside) 2010? 12B2 2012? , SemEval( Semantic Eval- 
uation ) 2014 ; Task7 ^ , SemEval -2015 ; Task6 ^! , SemEval 


计算 大 会 (CCKS: China Conference on Knowledge Graph 
and Semantic Computing) 围绕 “限定 领域 实体 识别 与 实 
体 链 接 ” 这 一 人 研究 主题 开展 了 中 文 临床 病历 命名 实体 
识别 竞赛 评测 活动 (CCSK2017: Task2)”。 本 次 评测 
由 清华 大 学 知识 工程 实验 室 、 微 软 亚 洲 研究 院 以 及 北 
京 极目 云 健康 科技 有 限 公司 联合 主办 ,并 为 该 项 活动 
提供 了 经 过 脱 敏 处 理 的 真实 临床 病历 语 料 集 ,这 也 是 
司 内 首次 以 会 议 组 织 形式 发 布 的 真实 中 文 临床 病历 语 
料 集 。 

由 于 汉语 在 语言 表达 上 不 同 于 英语 ,在 研究 临床 
病历 命名 实体 识别 这 类 序列 标注 任务 时 有 ”" 字 粒度 ” 
和 “ 词 粒 度 ” 两 种 方式 ,大 量 实验 研究 表明 中 文 “ 字 粒 
度 " 较 “ 词 粒 度 ” 在 序列 标注 任务 中 有 更 好 的 表现 ,这 
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是 由 于 " 字 粒 度 ” 为 标注 模型 提供 了 更 多 的 计算 单元 ， 
可 以 得 到 更 多 反映 实体 结构 的 特征 , 既 能 解决 部 分 数 
据 稀 疏 问题 ,又 能 避免 分 词 错误 所 引入 的 标注 边界 错 
Vx. ZU CCSK2017 :Task2 所 收录 的 7 篇 评测 论 
文 均 采用 字 粒 度 模 型 ,但 并 未 详细 讨论 多 特征 字 粒 度 
模型 下 词语 特征 的 抽取 方案 ,同时 词语 特征 在 “ 字 粒 
度 "模型 下 如 何 抽取 还 未 见 有 其 他 文献 详细 讨论 和 实 
验 对 比 。 基 于 此 ,本 文 借鉴 联合 标签 思想 ,针对 中 文 序 
列 标注 任务 特点 ,提出 了 含 分 词 标签 的 中 文字 粒度 词 
语 特征 提取 方法 ,并 选取 了 词性 标注 .关键 词 权 值 、 依 


人 工 特征 的 统计 机 器 学 习 方法 与 基于 词 向 量 表 示 技 术 
的 神经 网 络 模型 算法 。 基 于 人 工 特征 的 统计 机 器 学 习 
方法 ,常用 的 序列 标注 模型 有 : 隐 马 尔 可 夫 模 型 
(HMM : Hidden Markov Model) > , f iij B 2R n] A 
型 (MEMM : Maximum Entropy Markov Model) AM 条 件 
随机 场 模型 (CRF :Conditional Random Fields ) "等 ,其 
中 CRF 模型 算法 克服 了 观察 值 之 间 的 独立 假设 ,采用 
全 局 归 一 化 ,防止 陷入 局 部 最 优 ,解决 了 标注 偏 置 问 
题 ,在 实践 中 取得 了 较 好 表现 ,因此 被 广泛 使 用 。 基 于 
词 向 量 表示 技术 的 神经 网 络 序列 标注 算法 ,以 双向 长 


存 句 法 三 项 词语 特征 ,采用 多 种 不 同 的 组 合 方案 进行 
实验 。 实 验 表 明 , 含 分 词 标签 的 中 文字 粒度 特征 提取 
方法 在 临床 病历 命名 实体 识别 中 可 以 获得 更 好 的 词语 
特征 表示 ,四 种 不 同 词语 特征 组 合 下 , Method2 相对 
Methodl 方法 的 临床 病历 命名 实体 识别 的 P, 值 平均 提 
INÉ 0.23% 。 实 验 结果 分 析 中 还 详细 探讨 了 影响 临 
HIR UT A Sc He PUBL AH ER ER 
2 ”相关 工作 
临床 病历 命名 实体 识别 与 中 文 分 词 .词性 标注 一 
榜 s 都 可 以 将 其 看 作 是 自然 语言 处 理 (NLP: Nature Lan- 
mc Process) 研究 中 的 序列 标注 问题 , 即 给 定 一 个 文本 
AIX = ex ，……,xs > ,目标 是 识别 出 序列 X 对 应 的 
序列 Y= «y, "ES 
AL 序列 标注 模型 概述 
它 序列 标注 模型 不 同 于 一 般 分 类 模型 , 它 更 强调 序 
列 曲 对 象 之 间 的 相互 联系 , 即 序列 中 的 对 象 与 它 前 后 
位 旺 出 现 的 对 象 之 间 存在 某 种 关联 。 这 符合 人 类 对 自 
然 语言 认 知 的 过 程 , 即 人 们 在 理解 自然 语言 文本 中 的 
某 个 字 或 词 时 ,通常 是 联系 上 下 文 来 进行 的 。 也 有 学 
者 将 序列 标注 模型 看 作 是 一 种 特殊 的 分 类 模型 , 即 Y 
Boy, nnn y, > 是 类 别 ,序列 标注 模型 是 对 文本 序 
列 X = «x, nux, > 进行 分 类 ,但 与 传统 分 类 模型 不 
同 , 当 对 x, 进行 预测 时 ,不 是 孤立 的 预测 x 对 应 的 y， 
而 是 联系 上 下 文 1…、xa xa osa Xue LOC CM 
Ly, ,这 种 预测 方式 也 称 为 “结构 化 预测 "号 。 这 种 
“结构 化 预测 "使 得 对 某 一 时 刻 或 者 某 一 位 置 的 输入 x 
进行 预测 时 能 够 联系 更 多 相互 映衬 的 上 下 文 结构 信 
息 ,使 得 序列 标注 模型 在 临床 病历 命名 实体 识别 中 较 
以 往 的 基于 字典 ( Dictionary based method) ”和 基于 规 
则 (Rule -based method ) 的 方法 中 有 着 更 好 的 性 能 
现 。 

目前 比较 流行 的 序列 标注 模型 算法 有 两 类 :基于 
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短期 记忆 网 络 模 型 (Bi-LSTM : Bidirectional Long Short 
Term Memory) 为 代表 ” , 它 是 双向 循环 神经 网 络 模型 
( Bi-RNN: Bidirectional Recurrent Neural. Network ) 的 改 
进 型 。Bi-LSTM 模型 可 以 有 效 保留 或 删 减 长 远 距 离 的 
上 下 文 信息 ,解决 了 Bi-RNN 的 梯度 消失 与 梯度 爆炸 问 
题 ,但 其 求解 方式 是 计算 局 部 最 优 解 ,而 CRF 模型 求 
解 方式 是 计算 全 局 最 优 解 ,因此 可 以 综合 两 种 模型 的 
优点 构筑 Bi-LSTM -CRF 模型 “ 。 中 文 临 床 病 历 命名 
实体 识别 的 字 粒 度 Bi-LSTM-CRF 模型 如 图 1 所 示 : 


右 手 拇 指 "Ü JT 中 长 
Character 

及 eprsentati | 
A. T AMN ZA 
Bi-LSTM (LSTM LSTM) LSTMH>(LSTM-PLSTM H> LSTMH>{LSTM LSIN) 
Bi-LSTM AE UCM SM ILI eE A 
(LM Hs Lew) HLS TM) sm) «Hm EST) 4 EST™) 
CRF-Layer{ [B-B] [r5] [r5] [e] [9] [0] [55] [r5] 
Oww (| 56 F B RIY — Hm IM X, 


l 临床 电子 病历 命名 实体 识别 的 
Bi-LSTM-CRF 模型 


本 次 CCKS2017 :Task2 收录 的 7 篇 评测 论文 均 详 
细 讨 论 了 Bi-LSTM-CRF( 或 Bi-LSTM ) E79" 7 , np Jl, 
目前 受 深 度 学 习 影 响 ,神经 网 络 模型 受到 研究 者 广泛 
关注 。 但 其 中 有 3 篇 评测 论文 使 用 了 CRF 模型 与 Bi- 
LSTM-CRF fi JETTXE EG 77 ,上 且 CRF 模型 2 次 胜 
出 ,可 见 基于 传统 人 工 特征 的 统计 机 器 学 习 算 法 在 性 
能 上 依然 保有 竞争 力 。 
2.2 中文 序 列 标注 模型 中 的 “ 字 粒 度 ” 与 “ 词 粒 度 ” 

汉语 在 表达 方式 上 与 英语 有 着 巨大 差别 。 英 语文 
本 在 进行 自然 语言 处 理 时 ,其 处 理 的 最 小 单位 为 英文 
单词 (word) , 少 有 研究 基于 字母 ( character ) 。 因 为 英 
文 单词 是 最 小 的 语义 单元 ,而 字母 不 具有 具体 语义 , 且 


RE, TX, FAN, 
任务 为 例 [J]. 图书 情 报 工 作 ,2018 ,62(11) :103 - 111. 
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以 CCKS2017 ; Task2- 1 H ing VEJ 


英文 词 与 词 之 间 有 空格 符 作为 间隔 ,计算 机 处 理 起 来 
也 非常 方便 ,所 以 在 构建 英文 文本 的 序列 标注 模型 时 
无 字 粒 度 与 词 粒度 之 分 ,基本 上 都 采用 “ 词 粒度 ” 模 
Be 


语 的 最 小 语义 单位 也 是 词 ,由 单字 、 双 字 或 多 字 
xL dc en 
在 中 文 自然 语言 处 理 时 ,首先 对 文本 进行 分 词 ,构建 词 
粒度 序列 文本 成 为 了 很 自然 的 设计 思想 。 文 献 [24] 
就 是 先 对 文本 进行 分 词 ,然后 利用 条 件 随 机 场 模 型 构 
筑 中 文 词 粒度 的 序列 标注 模型 进行 关键 词 自动 抽取 标 
引 。 但 由 于 中 文 表述 的 纷繁 复杂 , 仅 中 文 分 词 就 存在 
粗 粒 度 和 细 粒 度 之 分 5 ,不 同 粒度 的 分 词 结果 会 对 后 
续 任务 处 理 产 生 影 响 , 且 分 词 结果 的 误差 也 会 传递 给 
局 续 任务 处 理 中 。 同 时 受 中 文 分 词 与 词性 标注 采用 的 
RZE 序列 标注 模型 的 影响 59 ,人 们 开始 在 关键 词 
人 
部 缠 采 用 字 粒 度 方式 进行 处 理 。 文 献 [27] 详 细 探 讨 
于 中 文字 粒度 序列 标注 模型 的 关键 词 提取 研究 ， 
对 比 了 字 粒 度 与 词 粒度 的 不 同 ,实验 结果 表明 字 
处 理 方法 是 有 效 的。 文献 [8 ,28] 在 中 文 电子 病历 
让 移 实 体 识别 中 也 采用 了 字 粒 度 与 词 粒度 两 种 序列 标 
"A ) 式 进行 对 比 ,实验 结果 显示 字 粒 度 要 显著 优 于 词 
粮 诺 。 文 献 [29] 在 深度 神经 网 络 框架 下 ,利用 字 向 量 
+ 驻 向 量 的 拼接 方式 ,获得 了 中 文 地 名 、 人 名 .机构 名 
lis ht: F, 值 ,其 方法 可 以 视 为 中 文字 粒度 序列 标 
注 寞 型 思想 在 神经 网 络 模型 中 的 应 用 。 
2:32 文本 特征 提取 研究 
《一 般 认 为 传统 机 器 学 习 方 法 (包括 CRF 算法 ) 的 
学 习 效 果 取 决 于 好 的 人 工 特征 提取 方案 ,而 神经 网 络 
模型 可 以 利用 表示 学 习 (representation learning) 技术 和 
更 深 的 神经 网 络 结构 自动 学 出 样本 特征 的 向 量 表 


RO", 但 从 本 次 的 7 篇 评测 论文 中 可 以 发 现 , Bi- 


LSTM-CRF 这 类 神经 网 络 模型 仅 采 用 单一 的 字 向 量 
(或 词 向 量 ) 并 不 能 获得 最 佳 P, 值 。 利 用 向 量 拼接 
Ceoneatenate) 技 术 ,除了 引入 字 向 量 特征 外 ,还 可 以 
加 其 他 文本 特征 向 量 ,将 这 些 特征 向 量 与 字 向 量 ( 或 词 
VERO HER ER HAE PRU ARIA 
型 ,往往 能 够 取得 更 好 的 F, 值 。7 篇 评测 论文 中 用 到 
的 向 量 表示 技术 ,除了 分 布 式 表示 外 ,还 有 独 热 表示 、 
随机 向 量 表示 等 方法 , 见 图 2。 

可 以 预见 ,未 来 的 命名 实体 识别 任务 ,不论 是 采用 
传统 机 器 学 习 方法 还 是 神经 网 络 方法 ,关于 文本 特征 
的 提取 和 向 量 表示 技术 ,还 将 被 持续 关注 与 研究 。 本 


传统 机 器 学 习 模 型 神经 网 络 模 型 
e.g: HMM, CRF e.g: BI-LSTM, Bi-LSTM-CRF 
字 特 征 字 向 量 
词 特征 词 向 量 
词性 特征 词性 特征 向 量 
位 置 特征 MEE 位 置 特征 向 量 
N-gram 特征 mu N-gram 特征 向 量 
语法 特征 picea 语法 特征 向 量 
词典 特征 OS 词典 特征 向 量 
í 随机 向 量 表示 à 
规则 特征 规则 特征 向 量 


2 文本 特征 设计 方法 ,从 传统 机 器 
学 习 模型 到 神经 网 络 模 型 


文 受 联合 标签 思想 启发 ,在 已 有 字 粒 度 序列 标注 模型 
研究 基础 上 ,提出 一 种 基于 字 粒 度 序列 标注 模型 的 词 
语 特征 提取 方法 :将 分 词 的 分 段 标签 与 该 字 所 在 词 的 
词语 特征 相 结 合 的 提取 方式 ,实验 证 明 该 方法 对 中 文 
字 粒 度 序列 标注 模型 是 有 效 的 。 


3 中 文字 粒度 特征 提取 方案 


3.1 中 文 单一 字符 特征 序列 标注 模型 
中 文 单一 字符 特征 序列 标注 模型 中 ,特征 序列 为 
中 文 汉字 ,标签 序列 为 标注 对 象 的 字 粒 度 表 示 。 标 注 
对 象 的 字 粒 度 表示 ,一 般 采 用 联合 标签 ( cross label ) 方 
法 实现 ”。 联 合 标 签 方法 是 通过 将 标签 集 对 象 的 分 
段 标签 与 命名 实体 的 标签 集 进 行 联合 生成 新 的 标签 
集 ,常见 的 分 段 标 签 集 有 1B,1,0| 、|B,1,0,S| 、{B,I 
0,E,S| 等 ,具体 构造 方法 和 分 段 标签 含义 如 表 1 所 
示 。 通 过 观察 CRT 可 以 发 现 ,BIOES 联合 标签 方案 较 
BIOS 和 BIO 提供 了 更 多 的 分 段 信息 ,识别 度 更 高 。 文 
HRO 在 Bi-LSTM 模型 下 进行 实验 ,验证 了 BIOES 编码 
方案 较 BIO 编码 方案 效果 更 好 。 因 此 ,本 文 论述 的 字 
粒度 序列 标注 模型 均 采用 BIOES 与 标签 集 的 联合 标签 
编码 模式 。 
X1 临床 病历 文本 的 BIO、 BIOE BIOES 
三 种 联合 标签 字符 序列 标注 模式 示意 
B EBEK, X FOE X ok 肿 


BIO -标签 O 0 Bb Bs O Bb Ib Ib O Be Is 0 


BIOS -标签 O O Sb S5 O Bb Ib Ib O Be Is 0 
BIOES -标签 O 0 Sb Ss O Bb Ib Eb O BsEs O 
注 :b: 身 体 部 位 (Body) ,s: 症 状 体征 (Symptom) ;B :实体 的 起 始 ， 
I: 实 体 的 内 部 ,上 :实体 的 结尾 ,S$: 单 字 实体 ,0: 非 实体 
3.2. 字 粒 度 词 语 特征 提取 方法 (Methodl ) 

序列 标注 模型 单一 使 用 字符 特征 往往 无 法 取得 最 
佳 效 果 ,通常 还 得 挖掘 文本 的 其 他 语义 特征 进行 联合 
学 习 取得 最 佳 效 果 ”' 。 语 言 的 最 小 语义 单位 是 语素 ， 
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hina nAdA 
CI IINaX IV m 1 F 


而 汉语 语素 由 词 构成 (而 非 字 ) ”, 如 :单字 词 ( 跑 、 
WE) ox 5r 8 CUb Az WE) e] CHE 25 ET LUE 
林 ) 。 所 以 汉语 文本 的 语义 特征 通常 是 从 * 词 "的 角度 
去 分 析 提 取 , 即 提取 文本 的 词语 特征 。 在 字 粒 度 序列 
标注 模型 中 ,词语 特征 提取 通常 采用 “该 字 所 在 词 的 词 
语 特征 ”2 ,如 表 2 所 示 。 不 失 一 般 性 ,本 文 从 自然 语言 
处 理 中 的 三 项 基本 任务 :词性 标注 (Part -of-speech Tag- 
ging) ,关键 词 权 值 提取 (Keyword Extraction)、 依存 句 法 
分 析 (Dependeney parsing) 提 取 词语 特征 ,然后 构造 临床 
病历 命名 实体 识别 的 多 特征 字 粒 度 序列 标注 模型 。 
表 2 “WAR” 与 “ 字 粒 度 " 序 列 标注 模型 

的 特征 提取 方式 示意 

字 粒 度 

字 本 身 

该 字 所 在 词 的 词语 特征 1 


词 粒度 
词语 本 身 


词语 特征 


= 


词语 特征 : 该 字 所 在 词 的 词语 特征 n 


《 


GS 本文 词性 标注 采用 隐 马 尔 可 夫 算 法 对 中 文 临床 病 


€ 


所 交 本 进行 分 词 并 获得 词性 标注 。 词 性 标注 结果 供 关 


ef 


BEDU EARTE i 1) Br HO I. Se fi p IDE 
.首先 对 病历 文本 进行 分 词 ,然后 采用 TextRank 算 


决 所 取 关 键 词 ,将 提取 的 关键 词 按照 关键 词 权 值 从 高 
到 假 排序 ,并 将 其 从 最 高 到 最 低 分 成 16 个 等 级 ,等 级 
作 党 词语 的 关键 词 权 值 特征 , 取 值 范围 为 10.1.2，…， 


1 人 所 停 用 词 及 其 他 符号 取 值 为 | -1| 。TextRank 算法 


设 名 思想 来 源 于 Google 的 PageRank 算法 , 它 利用 投票 


,让 每 一 个 单词 给 它 的 邻居 投票 , 票 的 权重 取决 于 
外 鲍 的 票数 ,然后 采用 矩阵 迭代 收敛 的 方式 获得 词 的 
关键 词 权 值 的 排序 “!。 本 次 临床 病历 文本 词语 关键 词 
权 值 特征 提取 结果 如 表 3 所 示 。 依 存 句法 分 析 最 先 


由 法 国语 言 学 家 L. Tesniere 于 1959 年 提出 , 它 表示 的 

是 句子 中 词语 之 间 的 某 种 依赖 关系 :一 个 句子 中 只 

个 成 分 是 独立 的 ,其 它 成 分 直接 依存 于 某 一 成 分 ,任何 

一 个 成 分 都 不 能 依存 于 两 个 或 两 个 以 上 的 成 分 ” 。 通 

过 依存 句法 分 析 可 以 获得 词 的 语法 成 分 依存 关系 。 本 

3C Hide K RBS LE SCHUPS JI CAS IS CERO AT , 

3 是 临床 病历 文本 依存 句法 分 析 结 果 的 可 视 化 表示 。 

表 3 关键 词 权 值 提取 结果 部 分 示例 
关键 词 提取 示例 

、 人 入院, 治疗 ,给予 .检查 、… 

活血 化 瘀 呕吐 物 . 髋 关节 BE 

AJEA diio A 71 REL ons 


13. 球 棒 、 稀 薄利 多 卡 因 、 环 状 , 病 情 恶化 … 
14 RRE TEM JERE OME RIRE 
15 ACT HGB . 钾 离 子 JIRO EBU v 
注 : 本 次 在 ccks2017 :task 的 语 料 下 进行 关键 词 提取 ,共计 提取 
7 687 个 关键 词 ,除权 值 15 ,其 余 每 个 权 值 下 各 有 500 个 关键 词 
标点 


并 列 


zx i ci 动 宾 
a 双 下 肢 H 水 肿 


6lv 7|nz 8|w 


l idR } 
<root> 患者 


软 
0|<root> ln 2|n 3|a 


3 临床 病历 文本 的 依存 句法 树 可 视 化 表示 


在 获得 上 述 文本 词语 特征 后 , 字 粒 度 序 列 标注 模 
型 的 特征 提取 方式 为 “ 字 本 喘 + 该 字 所 在 词 的 词性 特 
征 + 该 字 所 在 词 的 关键 词 权 值 特征 + 该 字 所 在 词 的 依 
存 句 法 特征 ”, 本 节 临 床 病历 命名 实体 识别 的 训练 标注 
语 料 如 表 4-Methodl 所 示 : 


RA 多 特征 字 粒 度 序列 标注 模型 临床 病例 文本 训练 语 料 示例 


3.2 节 : 多 特征 字 粒 度 模型 (Method1l ) 


3.3 节 : 含 分 词 信息 的 多 特征 字 粒 度 模 型 ( Method2 ) 


特征 列 CO Cl C2 C3 C7 CO C4 C5 C6 C7 
临床 病历 A n 0 EF 0 E B-n BO B- 定 中 0 
文本 训练 者 n 0 定 中 0 者 E-n E-0 E-E (0) 
语 料 示例 腹 ng 过 主 谓 S-Body 腹 S-ng S-4 S- 主 谓 S-Body 
软 a BI 核心 0 Sk S-a S-4 S- 核 心 0 
, w -1 标点 0 A S-w S-4 S- 标 点 0 
双 n 0 xi B-Body 双 B-n BO B- 主 谓 B-Body 
下 n 0 主 谓 I-Body F I-n L0 I-xi8 I-Body 
肢 n 0 x8 E-Body 肢 E-n ED EE- 主 谓 E-Body 
无 v 1 并 列 0 无 S-v S--1 S- 并 列 0 
水 nhd 0 动 宾 B-Symptom 水 B-nhd BO B- 动 宾 B-Symptom 
p nhd 0 动 宾 E-Symptom 肿 E-nhd ED E-z) E-Symptom 
w -1 标点 0 Sw S-4 SRA 0 


注 : C0: 字 特征 ;C1 :该 字 所 在 词 的 词性 特征 ;C2 :该 字 所 在 词 的 关键 词 权 值 特征 ;C3 :该 字 所 在 词 的 依存 句法 特征 ;C7:“ 


象 的 联合 标签 ;C4,C5 ,C6:“BIES” 与 C1,C2 ,C3 的 联合 标签 
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孙 安 ， 于 英 香 ， 罗 永 刚 ， 等 . 序列 标注 模型 中 的 字 粒 度 特 征 提 取 方 案 研究 


任务 为 例 []]. 图 书 情报 工作 ,2018,62(11):103 -111. 


: pem | 
\ 4E HBTI 


ChinaXive {FH 
以 CCKS2017 :Task2 if Jf 368 3 MA 3c A 1. 


3.3” 含 分 词 标 签 的 字 粒 度 特征 提取 方法 (Method2) 

上 节 描 述 了 临床 病历 文本 序列 标注 模型 的 字 粒 度 
特征 提取 方案 ,从 表 4 中 可 以 看 出 ,“C1,C2,C3” 表 示 
了 字 所 在 词 的 相关 词语 特征 信息 ,通过 分 析 发 现 这 种 
字 粒 度 的 词语 特征 提取 方案 忽略 了 词语 的 分 词 边界 信 
息 。 以 表 4-Methodl 示例 中 的 “ 双 下 肢 "中 的 “下 ” 字 为 
例 ,其 对 应 的 “n.0、 主 谓 ” 的 三 个 词语 特征 ,缺乏 词 的 
分 段 边界 信息 。 

本 节 结 合 3. 1 节 联 合 标签 思想 ,提出 一 种 字 粒 度 
模型 下 将 词语 的 分 词 标签 ( Word-Segment label ) 与 词语 
特征 进行 联合 的 特征 提取 方案 , 即 字 所 对 应 的 词语 特 


临床 病例 文本 的 字 粒 度 特 征 提取 方案 采用 3.2 58 
Methodl 和 3.3 节 Method2 ,模型 的 训练 采用 条 件 随 机 
场 算法 (CRF)。 实 验 目 的 是 考察 Method2 方法 较 
Method! 方法 在 “临床 病历 命名 实体 识别 任务 ”中 是 否 
具有 性 能 提升 作用 。 

4.2 实验 工具 

本 次 实验 平台 的 编程 环境 在 Python3.4 与 Jdkl. 8 
下 进行 ,文本 特征 提取 阶段 采用 HanLP 工具 。HanLP 
是 由 一 系列 模型 与 算法 组 成 的 Java 工具 包 , 通 过 Jdk 
它 可 以 很 方便 被 Python 调用 。 中 文 分 词 是 HanLP 的 
基本 功能 ,也 是 词性 标注 、 关 键 词 提取 依存 句法 分 析 


征 为 “该 字 所 在 词 的 分 词 标签 一 该 字 所 在 词 的 词语 特 
征 ”。 分 词 标签 集 为 1B\IE、S1 JOB BILE] deci] 
请 的 开始 内部、 结尾 , SI 表示 单字 词 。 需 要 注意 的 
Att 4 " BIES” 标签 的 信息 来 源 不 同 于 3. 1 节 的 
“ BIOES" 标签 ,前 者 来 源 于 文本 词语 分 词 的 分 段 信息 ， 
简 来 源 于 人 工 标注 标签 的 分 段 信息 。 这 种 含 分 词 分 
段 侦 息 的 特征 提取 方法 使 得 字 粒 度 下 的 “ 词 特征 " 信 
息 量 更 加 丰富 ,不 仅 表 达 了 字 所 在 词 的 词语 特征 ,还 表 
类 也 该 特征 所 在 词 的 位 置信 息 。 例 如 两 个 并 列 双 字 名 
REL E Methodl 方法 下 , 字 的 词性 标注 序列 是 “n， 
Ea” ,中 间 的 分 词 信息 将 丢失 。 如 果 采 用 Method2 
方 泌 , 字 的 词性 标注 序列 是 “B-n,E-n,B-n,E-n" 保 留 了 
分 握 信 息 。 这 一 联合 特征 提取 方法 不 仅 可 以 在 词性 标 
注 生 运用 ,还 可 以 运用 到 其 他 采用 词语 粒度 计算 获得 
的 潜 义 与 语法 特征 ,如 关键 词 权 值 与 依存 句法 特征 。 
本 范 临 床 病历 命名 实体 识别 的 训练 标注 语 料 示例 如 表 
4-Wethod2 所 示 。 


4 ”实验 与 分 析 


4.1 实验 任务 与 数据 

本 次 任务 的 输入 为 一 组 临床 病历 电子 文档 , 它 记 
录 了 病人 在 医院 诊断 治疗 的 全 过 程 。 任 务 的 输出 要 求 
给 出 文档 中 与 医学 相关 的 命名 实体 名 字 的 字符 串 边 


三 项 功能 的 基础 ,文献 [18] 在 与 本 次 实验 数据 相同 环 
境 下 对 比 了 Jieba NLPIR , Stanford Parser, HanLP. 四 种 
分 词 工具 ,其 中 HanLP 表现 最 好 。 多 特征 字 粒 度 序列 
标注 模型 的 临床 病历 文本 训练 语 料 生 成 步骤 如 图 4 所 
7N: 


HanLP:Segment HanLP:extractKeyword 


临床 病历 话 料 | (EM 算法) puru] (TesRenk 算 ) [aaeeea 
| 及 词性 标注 Wir s 


HanLP:parseDependency 
(RR s ) Methodl, Method2 ^ Methodl, Method2 


获得 词 的 句法 


标注 模型 


| 一 Method1、Method2 型 
训练 语 料 


图 4 多 特征 字 粒 度 序 列 标注 模型 训练 
语 料 生成 流程 


条 件 随机 场 算法 采用 CRF + + 工具 实现 ” ,该 
工具 主要 使 用 :crf_learn 和 erf. test 两 个 功能 。crf_learn 
用 于 训练 标注 模型 , 它 有 多 个 参数 ,其 中 3 个 参数 显著 
影响 标注 模型 的 性 能 : -f, -c,template。 在 本 次 实验 环 
境 下 通过 反复 多 次 测试 ,f 取 3,-e 取 4.0 可 以 取得 较 
好 性 能 ,该 结果 与 文献 ”研究 一 致 。template 文件 定 
义 了 条 件 随机 场 算法 使 用 的 特征 模板 ,如 表 6 Bron : 

表 6 Ci(i= {0,1,…,6|] ) 的 特征 模板 


,61 ) 的 特征 模板 


Se 


Ci(i= 10,1,… 


界 ,以 及 每 个 实体 名 字 对 应 的 类 别 。 本 次 任务 共 定 义 
了 5 类 命名 实体 :身体 部 位 (Body) 症状 体征 (Symp- 
tom) 检查 检验 (Exam) 疾病 诊断 (Disease) 治疗 
(Treat) 。 实 验 数据 为 CCKS2017 :Task2 提供 的 400 份 
人 工 标注 数据 ,人 工 标签 种 类 分 布 情况 如 表 5 Bron : 
表 5 人工 标注 的 标签 种 类 分 布 情况 
”数据 集 ”身体 部 位 症状 体征 ”检查 检验 ”疾病 诊断 ”治疗 。 全 部 
400 份 13740 10142 12689 1255 1513 39359 


34.996 25. 896 32.396 3.296 3. 896 100% 


U00:%x[-2,i],U01:%x[-1,i],U02:%x[0,i],U03:% x 
[1,i] ,U04:%x[2,i] 


Unigram 


Bigram U05:%x[ 4,i]/96x[0,i] , U06;96x[0,i]/96x[1,i] 
U07:%x[ 2,i]/96x[ 44 ,i]/96x[0,i] 

U08 :%x[ 4,i]/96 x[0,i]/96 x[1,i] 

U09 :26 x[0,i]/96 x[ 1,i]/96 x[2,i] 


Trigram 


注 :Cis 表 4 中 的 特征 列 
4.3 实验 结果 与 分 析 
为 了 验证 method2 较 methodl 方法 的 有 效 性 ,本 次 
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实验 在 4 组 不 同 的 词语 特征 组 合 方案 (Schemel : 字 一 
词性 特征 ,Scheme2 : 字 一 词性 特征 一 关键 词 权 值 特征 、 
Scheme3 : 字 一 词性 特征 一 依存 句法 特征 .Scheme4 : 字 
一 词性 特征 一 关键 词 权 值 特征 一 依存 句法 特征 ) 下 进 
行 对 比 测 试 。 

测试 过 程 采 用 封闭 测试 和 四 折 交 又 测试 两 种 方 
案 。 封 闭 测试 (训练 集 包 含 测试 集 ) ,将 400 份 人 工 标 
注 的 电子 病历 文件 作为 训练 数据 ,然后 将 这 400 份 文 


件 分 成 4 组 进行 标注 测试 并 对 结果 求 平均 。 四 折 交 叉 
测试 (训练 集 与 测试 集 不 同 ) :将 400 份 人 工 标 注 的 电 
子 病历 文件 分 成 4 组 ,轮流 选取 3 组 作为 训练 数据 , 剩 
下 1 组 作为 测试 数据 ,然后 对 测试 结果 求 平均 。 测 试 
结果 评价 指标 为 全 体 临 床 病历 命名 实体 识别 结果 的 
F, 值 ,以 及 5 类 分 项 命名 实体 识别 结果 的 F 值 。 其 
中 :Fl =2PRA(P+R),P 为 查 准 率 ,R 为 召回 率 。 实 验 
结果 如 表 7 Bros: 


表 7 Methodi 5 Method2 在 不 同 词语 特征 组 合 下 命名 实体 识别 的 F 值 


Schemel Scheme2 Scheme3 Scheme4 
methodl method2 methodl method2 methodl method2 methodl method2 
封闭 测试 F; ( Overall) 96. 6596 96. 67% 96. 57% 96. 6796 96. 95% 97. 0196 96.96% 97.02% 
F; (body) 94. 49% 94. 52% 94. 3596 94. 50% 94. 82% 94. 91% 94. 8396 94. 93% 
F; ( Sympton) 98. 92% 98. 94% 98. 86% 98.9796 99. 10% 99. 1196 99. 10% 99. 13% 
E F; (Exam) 97. 40% 97.4496 97.37% 97.4396 97. 6096 97.6596 97.6196 97.6796 
F; (Disease) 95.25% 95. 1796 95. 0696 95. 2896 96. 1796 96. 2296 96.2696 96. 2296 
F,( Treat) 96. 95% 96. 97% 96. 96% 96. 92% 97. 91% 97.95% 97.94% 97.8196 
SAITUN F; ( Overall) 89. 56% 89. 82% 89. 48% 89. 61% 89. 04% 89. 40% 89.1396 89. 31% 
F; (body) 84. 54% 85. 1396 84. 54% 84. 7596 84. 1896 84. 79% 84.4396 84. 7096 
F; (Sympton) 95.4496 95. 46% 95. 36% 95. 4396 95. 10% 95. 16% 95.22% 95. 17% 
F; (Exam) 93. 76% 93. 54% 93. 62% 93. 49% 92. 99% 93. 0896 93.03% 93. 1096 
F; (Disease ) 75.05% 73. 5896 72. 5896 73.2296 72.5196 73. 1096 72.6196 72.4296 
F, ( Treat) 74. 8496 77.65% 74. 20% 76.74% 74.02% 76.07% 72.37 74. 8396 


CN 对 实验 结果 进行 分 析 : 

- (1) Æ Schemel , Scheme2 , Scheme3 , Scheme4 四 种 
看 局 的 词语 特征 组 合 下 ,不 论 是 四 折 交 叉 测 试 还 是 封 
闭 渴 试 ,总 体 指标 F, (Overall) ffi Method2 都 要 优 于 
MEEodl ,四 折 交 又 验证 下 F, ( Overall ) 平均 性 能 提升 
072366. Aj 5 类 实体 识别 的 分 项 指标 值 ,Method2 


法 对 命名 实体 识别 任务 的 性 能 增益 将 会 降 为 负 值 。 但 
从 目前 通用 中 文 分 词 工 具 的 分 词 结果 来 看 ,在 临床 病 
历 文本 中 使 用 Method2 方法 ,性 能 还 是 有 正 增益 效果 。 
同时 文献 ”提出 了 一 种 利用 语 料 集中 的 人 工 标签 分 
段 信息 对 中 文 分 词 工具 的 分 词 结果 进行 二 次 矫正 的 
“Re-Segment ”分词 方 法 ,会 有 效 提 高 领域 文本 的 分 词 


在 绝 大 多 数 情况 下 也 要 优 于 Methodl 。 通 过 实例 观察 : 
Method2 较 Methodl 对 单字 词 实体 如 “ 痛 一 症状 体征 ”、 
“ 咽 一 身体 部 位 ”、“ 肺 一 身体 部 位 ”有 更 好 的 识别 效 
果 ; 同 时 在 实体 边界 识别 精度 上 也 有 更 好 表现 ,如 Me- 
thiod2 下 识别 为 “ 血 常规 一 检查 检验 ”“ 右 下 腹部 髋 血 
管 一 身体 部 位 ”, Methodl 下 为 “ 血 常规 结果 ”( 多 字 )， 
“ 右 下 腹部 ”( 漏 字 ) 。 实 验 结果 说 明 通 过 引入 联合 标 
签 思想 ,Method2 的 特征 提取 方法 较 Methodl 为 序列 标 
注 模型 提供 的 词语 特征 信息 量 更 大 ,不 仅 提供 了 词语 
特征 ,还 提供 了 该 特征 所 在 词 的 位 置信 息 ,对 标注 效果 
具有 性 能 增益 作用 。 

(2) 由 于 Method2 的 特征 提取 方法 依赖 于 前 期 词 
语 的 分 词 标签 ,所 以 中 文 分 词 结果 的 好 坏 将 影响 Meth- 
od2 方法 在 命名 实体 识别 中 性 能 提升 的 效果 。 从 理论 
上 分 析 , 如 果 中 文 分 词 结果 坏 到 一 定 程度 ,Method2 方 
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精度 ,使 用 该 方法 可 以 进一步 提高 Method2 方法 的 性 
能 增益 。 

(3) 四 折 交 叉 测 试 中 的 测试 结果 要 善 遍 低 于 封闭 
测试 ,尤其 Disease 5j Treat 标签 ,其 了 值 相对 于 Body, 
Sympton,Exam 三 类 标签 发 生 了 显著 下 降 , 下 降幅 度 超 
过 20% 。 这 说 明 Disease 5j Treat 标签 较 Body , Symp- 
ton Exam 三 类 标签 存在 较 严 重 的 过 拟 合 问题 。 因 为 在 
封闭 测试 时 ,测试 集 来 自 于 训练 集 , 产 生 的 误差 称 为 
“训练 误差 ”(training error) 也 叫 " 经 验 误 差 ”(empirical 
error) 。 训 练 误差 低 (F 值 高 ) 的 学 习 模 型 不 一 定 是 好 
的 学 习 模 型 ,有 些 机 器 学 习 任 务 在 封闭 测试 下 取得 很 
好 的 效果 ,而 到 实际 应 用 环境 中 泛 化 性 能 下 降 ,效果 反 
而 变 差 ,这 种 现象 在 机 器 学 习 中 称 为 “过 拟 合 "” 。 在 
交叉 测试 下 ,测试 集 不 同 于 训练 集 ,测试 集 模 拟 了 新 样 
本 ,是 测试 集 与 训练 集 的 设置 比例 也 不 宜 “ 过 大 ”或 


孙 安 ， 于 英 香 ， 罗 永 刚 ， 等 . 序列 标注 模型 中 的 字 粒 度 特 征 提 取 方 案 研究 


任务 为 例 []]. 图 书 情报 工作 ,2018 ,62(11) :103 - 111. 
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“过 小 ”, 比例 一 般 在 1/4 ~ 1/2 之 间 较 为 合适 ( 四 折 交 
又 测试 中 比例 为 1/3 ) ,所 以 四 折 交 又 测 试 中 的 广 值 较 
封闭 测试 更 接近 模型 的 实际 泛 化 性 能 。 通 过 对 比 封 闭 
测试 与 四 折 交 又 测试 结果 可 以 检验 模型 是 否 存在 过 拟 


ÆA 
Ho 


过 拟 合 问题 往往 是 训练 集 的 数据 量 太 少 或 数据 存 
在 噪声 等 原因 造成 。 通 过 表 5 发 现 : 本 次 人 工 标签 的 
分 布 比 ,前 三 类 标签 对 象 Body ,Sympton , Exam 占 到 总 
样本 数 的 93% 。 而 后 两 类 Disease 与 Treat 标签 仅 占 总 
样本 数 的 3.2% 与 3.8% ,训练 数据 量 明显 过 小 。 这 使 
Disease 与 Treat 标签 对 象 在 模型 训练 时 发 生 的 过 拟 合 
现象 严重 。 男 一 方面 Disease 与 Treat 标签 对 象 多 为 长 
词 结构 ,识别 难度 大 ,而 Body ,Sympton , Exam 标签 的 构 


词 标 签 进行 联合 能 有 效 提升 标注 效果 。 本 文选 取 了 词 
语 的 词性 标注 ,关键 词 权 值 ,依存 句法 分 析 三 项 词语 特 
征 进行 组 合 实验 研究 ,实验 结果 证 明了 该 方法 的 有 效 
性 。 同 时 通过 特征 的 向 量化 表示 技术 ,该 方法 得 到 的 
词语 特征 用 向 量 表示 后 与 字 向 量 进 行 拼接 ,还 可 以 应 
用 到 Bi-LSTM-CRF 等 其 他 神经 网 络 模型 。 另 一 方面 ， 
领域 语 料 通常 是 领域 信息 分 析 和 数据 挖掘 的 最 好 研究 
对 象 ,本 次 CCKS2017 提供 的 真实 临床 病历 语 料 为 临 
床 医学 的 信息 分 析 与 信息 抽取 提供 了 鲜 活 数据 ,使 得 
本 次 临床 病历 命名 实体 识别 的 研究 结论 更 具有 真实 性 
和 实用 性 。 

下 一 步 研究 工作 : 

(1) 中文 临床 病历 用 语 特点 不 同 于 一 般 通 用 语 


= 


- 


词 结构 相对 简单 。 所 以 未 来 临床 病历 命名 实体 识别 可 


F ,提高 模型 的 泛 


COCA) 数据 噪音 来 源 方面 分 析 :四 折 交 又 测试 下 , 随 
着 沁 特 征 种 类 数量 的 增加 ,模型 的 值 反而 下 降 , 模 
涝 化 能 力 降低 。 这 说 明 目 前 通用 领域 内 关键 词 特 


征 种 依存 句法 特征 提取 算法 在 处 理 临床 病历 文本 时 效 


果 索 佳 ,提取 的 结果 发 生 错 误 为 序列 标注 模型 的 训练 
强生 了 噪音 。 例 如 临床 病历 文本 中 存在 大 量 的 简写 词 
与 深 用 词 ,如 “腹部 "简写 为 “ 腹 ", “柔软 ”简写 成 
“ 软 * ,HanLP 的 TextRank 算法 将 这 类 单字 词 作为 停 用 
词 于 待 ,显然 是 不 合适 的 ,这 说 明 临 床 医学 领域 内 的 关 
键 词 提 取 和 依存 句法 树 分 析 的 性 能 还 有 待 提 高 。 

除 词语 特征 提取 存在 噪音 外 ,本 次 测试 的 人 工 标 
注 标签 也 存在 一 定 的 噪音 。 通 过 人 工 检查 发 现 ,本 次 
训练 数据 的 人 工 标 签 存在 部 分 “标签 边界 二 义 性 ”和 
“标签 种 类 二 义 性 "问题: 如“ 双 侧扁 桃 体 ”, 关 于 “ 双 
侧 " 有 些 人 工 标 签 包含 ,而 有 些 则 不 包含 ;对 于 “鼻骨 
骨折 ”, 有 些 人 工 标签 标注 为 “鼻骨 ”-body、“ 骨 折 ”- 
symptom ,而 有 些 则 标注 为 "鼻骨 骨折 ”-disease。 进 一 
步 完善 和 提高 临床 病历 文本 人 工 标注 语 料 的 质量 对 临 
床 病历 文本 的 信息 分 析 与 信息 抽取 具有 重要 意义 。 


单 特 征 序列 标注 模型 难以 取得 最 佳 效果 ,多 特征 
联合 标注 方案 将 成 为 主流 。 随 着 中 文 分 词 技术 不 断 成 
熟 , 中 文字 粒度 序列 标注 模型 在 词语 特征 提取 上 与 分 


B ,其 存在 大 量 的 词语 简写 .语法 省 略 、 医 学 专业 术语 
和 受 控 词 汇 。 过 去 中 文 自然 语言 处 理 中 的 基础 任务 ， 
如 分 词 .词性 标注 .关键 词 提取 依存 句法 分 析 等 在 通 
日 语 料 里 取得 的 较 好 精度 ,但 却 难以 满足 临床 病历 文 
本 处 理 要 求 。 研 究 开发 针对 中 文 临床 病历 自然 语言 处 
理 的 浅 层 语义 分 析 工具 将 对 临床 病历 的 信息 分 析 与 数 
(2) 本 次 CCKS2017 ; Task2 发 布 的 人 工 标注 数据 
仅 提供 了 临床 病历 中 常见 的 5 类 命名 实体 ,但 相对 于 
国外 I2B2 2010 发 布 的 英文 临床 病历 语 料 集 , 还 缺少 
对 实体 的 修饰 成 分 标注 和 不 同类 别 实体 之 间 的 关系 标 
注 。 例如:“ ‘无 "疼痛 ”中 的 “无 ' 宁 是 一 个 否定 修饰 
(实体 修饰 ) ; 某 种 治疗 方案 施 治 于 特定 疾病 (实体 间 
关系 ) 。 补 充 完善 CCKS2017 : Task2 发 布 的 临床 病历 
标注 语 料 集 ,引入 实体 的 修饰 成 分 标注 和 实体 关系 标 
注 对 中 文 临 床 科学 研究 具有 重要 意义 。 
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Research on Feature Extraction Scheme of Chinese-character Granularity in Sequence Labeling Model 
—— A Case Study About Clinical Named Entity Recognition of CCKS2017 : Task2 
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"Abstract; [ Purpose/significance | According to the characteristics of Chinese language expression, this paper pro- 
poses a feature extraction method of words with word segmentation tag of character granularity, which can effectively im- 
pfove the F, value of Chinese clinical named entity recognition, and the method can be used for other Chinese sequence la- 
béling model. | Method/process| This paper chose three kinds of features of Chinese-words, including part -of -speech 
m m keyword weight and dependency parsing, to construct the clinical cases training text in sequence labeling model 
ofthe Chinese-character granularity, and the corpus source is CCKS2017 ; Task2. Then, in different feature combination 
modes , this paper adopted CRF algorithm to verify Method 1 and Method 2 , which are two kinds of words feature extraction 
ds for character granularity. [ Result/conclusion | Compared with Method 1, for the four different combinations of 
word features, Method 2 has been improved in the task of CNER , and the F, value has increased by an average of 0. 2396 
iif the 4 -fold cross-validation test. The experiment shows that in the context of mature Chinese word segmentation technolo- 
gy6 “Method2 can obtain better word feature representations than Method 1 and it has a lifting effect on the processing per- 

formance of Chinese-Character Granularity in Sequence Labeling Model. 
Keywords: named entity recognition character granularity feature extraction sequential labeling model condi- 


tional random field clinical cases 
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